iT邦幫忙

2025 iThome 鐵人賽

DAY 1
0
自我挑戰組

數據新手村:統計系畢業生 30 天打怪升級之旅系列 第 1

Day 1 - 數據新手村:我的鐵人賽挑戰宣言與學習地圖

  • 分享至 

  • xImage
  •  

故事起點 (Why Me, Why Now?)

你好!我是瀚文 (Han-Wen),統計系畢業,熱愛數據卻在求職路上意外闖進 Java 後端世界的學習者。

大學期間,有幸在台新銀行擔任 AI 實習生,親手使用 Python (Transformers, Gradio, OpenAI API) 建立了 GPT-4 自動化評測框架,這段經驗為我打開了數據科學的大門。雖然成果豐碩(例如提升了40%的評測效率),但我最大的收穫,是深刻體會到:所有亮眼的 AI 模型,其根基都建立在扎實的數據處理之上。

這份經驗點燃了我深入數據領域的熱情。

台新銀行創新應用部「AI訓練師」

驅動參加鐵人賽的動機:一次「名不符實」的求職經歷

退伍後,我懷著這份熱情,應徵了一份職稱是**「資料工程師」**的工作。職務說明 (JD) 上寫滿了令人興奮的關鍵字:ETL/ELT、PySpark、SQL 與 AWS 雲端服務——這正是我渴望實踐的戰場。

然而,實際入職後我才發現,這是許多數據新手的共同挑戰:名為「數據工程師」,實則為**「Java 後端維護」**的職位。

這次的「繞路」,沒有澆熄我的熱情,反而讓我更加確定:紙上談兵不如親身實踐,掌握真正的數據核心技能,是我唯一的道路。

這就是我開啟這次 iThome 鐵人賽挑戰的初衷。


這趟旅程,將探索什麼? (The "What")

在這 30 天的挑戰中,我們將扮演數據偵探,圍繞著一個真實的商業場景,學習並駕馭以下核心工具:

語言:

  • Python: 我們將駕馭 Python 的「數據分析三劍客」:NumPy (打好科學計算的基礎)、Pandas (整理與操作數據的瑞士刀)、以及 Matplotlib (讓數據開口說話的畫家)。

  • SQL: 我們將學習與資料庫對話的通用語言,從中高效地提取我們需要的資訊。

  • 數據集:巴西 Olist 電商數據集
    這不僅是一堆 CSV 檔案,而是一個真實電商平台的完整縮影。將從
    客戶 (customers)賣家 (sellers) 的基本資料出發,追蹤每一筆訂單 (orders)** 的生命週期,拆解訂單內的商品 (items)支付 (payments) 細節,最後再分析顧客留下的評論 (reviews),一步步揭開商業行為背後的秘密。

olist_customers_dataset.csv:買家個人資訊表格。
olist_order_items_dataset.csv:訂單商品資訊。
olist_order_payments_dataset.csv:訂單支付資訊。
olist_order_reviews_dataset.csv:訂單評論。
olist_orders_dataset.csv:訂單物流資訊。
olist_products_dataset.csv:商品資訊。
olist_geolocation_dataset.csv:各郵編代碼所指地區的經緯度。
olist_sellers_dataset.csv:賣家資訊。
product_category_name_translation.csv:商品葡萄牙文翻譯英文對應格。


作戰計畫 (The "How")

本系列的核心方法論是**「實戰驅動,做中學」**。將直接以 Olist 電商專案貫穿全程,遇到不懂的語法或觀念時,再暫停下來查閱資料,搞懂之後立刻回到專案中應用。我相信,這是內化知識最有效率的方式。

預計的 30 天路線圖:

  • 第一週:基石建設 - 環境建置與 NumPy 基礎

    • 目標:完成所有開發環境的安裝與設定,並透過 NumPy 掌握 Python 數據處理的底層核心——高效能的 n 維陣列 (ndarray) 操作。
  • 第二至三週:核心攻略 - Pandas 數據處理與清洗

    • 目標:這將是本系列的核心。將深入學習如何使用 Pandas 讀取、清理、轉換、篩選、分組與聚合 (Group By) Olist 的真實數據,將原始資料,整理成可用於分析的乾淨表格。
  • 第四週:視覺化呈現與 SQL 資料庫整合

    • 目標:學習用 Matplotlib 將我們的分析發現,轉換成清晰易懂的商業圖表。最終,會將清理乾淨的數據匯入本地 MySQL 資料庫,並學習用 SQL 進行驗證查詢,打通數據的任督二脈!

邀請與約定 (Join Me!)

這是我對自己的承諾,也是對各位讀者的邀請。在接下來的 30 天,我會每天分享我的學習進度、實作程式碼與筆記。

所有本系列使用的程式碼,都會同步更新到我的 GitHub 專案中:
點擊這裡前往我的 GitHub 專案

如果您也正走在數據的道路上,或對這趟旅程感興趣,歡迎「追蹤」我的系列文、在 GitHub 上給我星星 ⭐、或在文章底下留言提問,讓我們一起討論、共同學習,一步步地踏實前行!


下一篇
Day 02 - Anaconda 與 Python 環境詳解
系列文
數據新手村:統計系畢業生 30 天打怪升級之旅4
圖片
  熱門推薦
圖片
{{ item.channelVendor }} | {{ item.webinarstarted }} |
{{ formatDate(item.duration) }}
直播中

尚未有邦友留言

立即登入留言